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Introduction. 

Grâce aux progrès des statistiques mathématiques, les méthodes 
biométriques appliquées à l’anthropologie permettent actuellement 
de faire la synthèse entre, d’une part, les nombreuses données 
numériques, les longues listes de mensurations dont l’auteur 
n arrivait pas toujours à dégager des lois générales et, d’autre 
part, les descriptions qualitatives, très fines, très poussées, mais 
qui restaient néanmoins sujettes à caution et ne situaient pas 
nettement l’objet étudié dans sa lignée évolutive ou n’en préci¬ 
saient pas la place dans l'humanité actuelle. 

Aussi, croyons-nous que la biométrie contribuera à faire sortir 
1 anthropologie de l’ornière où celle-ci est plus ou moins engagée, 
en garantissant une grande précision dans la description des 
documents et en condensant les mensurations en graphiques dont 
les lois se dégagent aisément. En même temps, l’objectivité de 
telles méthodes assurera une large diffusion à chaque découverte 
en fournissant une base de discussion solide et concrète aux 
conclusions de l’auteur. 


2 E. DEFRISE-GUSSENHOVEN. — MESURE DE DIVERGENCE A 2 ENTRE 

C’est dans cet esprit que le professeur F. TwiESSELMANN ( 1 ) 
a abordé l’étude du fémur de Fond-de-Forêt; ainsi, pour rendre 
plus éloquente la description du fossile, il a comparé celui-ci avec 
les autres fémurs néanderthaliens et avec une collection de fémurs 
actuels. 

Un problème s’est alors posé, qui, à ma connaissance, n’est 
pas résolu en biométrie : évaluer l’écart entre un spécimen isolé 
et une population homogène, connue par un échantillon. 

Il n’y a pas lieu ici d’appliquer un test d’appartenance puisque 
le fossile n’appartient pas à une population récente (2). 

Ce qu’il faut est une mesure de divergence qui permette d’ex¬ 
primer par un nombre l’éloignement du fémur de Fond-de-Forêt 
de celui de l’Homme moderne. Une telle notion de « distance » 
doit servir en outre à comparer les écarts d’autres fémurs 
fossiles et à réunir toutes les données relatives à cette question 
en un graphique significatif. 

P. C. Mahalanobis (3) a traité une question analogue quand 
il a introduit la « distance » entre les moyennes de deux popu¬ 
lations dans le but d’améliorer le coefficient de ressemblance 
raciale. Il a créé une quantité A 1 2 3 , appelée actuellement distance 
généralisée de Mahalanobis, qui dépend des moyennes, des 
variances et des covariances des populations supposées normales. 

Nous inspirant de cet exemple, nous avons défini une mesure 
de divergence A 2 qui exprime le carré de la « distance » entre 
un point D (représentant le fossile) et un point M qui est 
l’image des moyennes de la population de référence, supposée 
normale. 

A 2 est défini par une expression mathématique assez complexe. 
Aussi, pour rendre cette notion de distance plus accessible, nous 
appelons « taux d’éloignement » de D le pourcentage des sujets 
de la population de référence qui sont plus près du point 
moyen M que le spécimen D à l’étude; autrement dit, le taux 


(1) TwiESSELMANN, F., 1954, et un mémoire à paraître dans les publica¬ 
tions de l’Institut royal des Sciences naturelles de Belgique. 

(2) Plusieurs auteurs ont attiré l'attention sur la distinction essentielle 
entre les notions de test et mesure de divergence; voir notamment Mahala¬ 
nobis, P. C., 1930; Fisher, R. A., 1936; Seltzer, C. C„ 1937. 

(3) Mahalanobis, P. C., 1936. Voir aussi Rao, R. C., 1952, p. 355, où 
l’auteur montre les avantages de la distance généralisée sur l’ancien coefficient 
de ressemblance raciale de K. Pearson. 
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d’éloignement est le pourcentage de sujets du groupe dont le A 2 
est inférieur à celui du sujet isolé D. Il est nul si le fossile D se 
trouve au centre de la population de référence. 

Dans deux notes précédentes (4), nous avons déjà défini le 
taux d’éloignement ainsi que le A 2 et signalé diverses applications 
en paléontologie humaine, en anthropologie physique et en systé¬ 
matique animale. La première note avait un but essentiellement 
pratique, de sorte que nous nous sommes particulièrement arrêté 
au cas de deux variables qui se prête à la construction de gra¬ 
phiques, où la population de référence est entourée d'ellipses 
équiprobables. Cette représentation est très commode; plusieurs 
naturalistes de l'Institut royal des Sciences naturelles de Belgique 
l’emploient couramment. 

Dans la note actuelle, nous traitons la question d’un point de 
vue plus général. Nous définissons la mesure de divergence et le 
taux d’éloignement pour p variables normales; nous calculons la 
répartition d’échantillonnage de L 2 et les moments de cette distri¬ 
bution afin de pouvoir juger la validité du A 2 et du taux d’éloigne¬ 
ment dans le cas où la population de référence ne serait connue 
que par un nombre réduit de spécimens. L 2 est la valeur corres¬ 
pondant à A 2 , mais calculée pour l'échantillon; c’est à partir de L 2 
que nous estimerons A 2 . 


1. — Définition de a 2 , mesure de divergence entre un 

POINT FIXE D ET LE POINT MOYEN (CENTRE) D’UNE 
POPULATION. 

Soit une population multivariée normale non singulière relative 
à p caractères. Désignons par m» et ai) ( i,j=l,.„p) les moyennes 
et les covariances (an=pij<Tij). Soient x* et ai) = rijSiS } les 
moyennes et les covariances d’un échantillon d'effectif n tiré de 
cette population et c?j les coordonnées d’un point fixe D dont 
nous voulons définir la « distance » au centre M de la population. 

Nous appelons 


V V 

A 2 — S S 


i—1 j=l 


a*’(mi — g ?{) (mj — dj ) 


(4) Defrise-Gussenhoven, E., 1955. 
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la mesure de divergence (ou le carré de la « distance ») 
entre le point D et le centre M de la population, a ij étant le 
mineur normé de l'élément an dans la matrice des covariances 

A=IM. 

Quand le point D varie, la quantité A 2 est distribuée comme x 2 
avec p degrés de liberté. Les tables usuelles de x 2 indiquent donc 
immédiatement le pourcentage de sujets de la population qui ont 
un A 2 inférieur ou égal à celui du point D. 

Ce pourcentage est, par définition, le taux d'éloigne¬ 
ment du point D par rapport à la population. 


2. — Justification de la définition de a 2 . 

Pour représenter une « distance », il faut qu'une fonction satis¬ 
fasse à certaines conditions, énoncées par P. C. Mahalanobis (5) 
et C. R. Rao (6). 

Nous allons montrer que A 2 répond à ces exigences. 

1° A 2 est un scalaire non négatif. Il est nul lorsque D est con¬ 
fondu avec le centre M de la population et augmente indéfiniment 
à mesure que D s'éloigne de M dans une direction donnée. 

2° A 2 est invariant pour les transformations linéaires qui affec¬ 
tent les variables. En particulier, A 2 a donc la même valeur quelles 
que soient les unités de mesure adoptées pour représenter les 
mensurations. 

Démonstration. Utilisons la notation matricielle (7). 

La distribution des p variables de la population est 
—Yi (x—m) ' A - H x—m) p 

const. X e II dx i avec A— 1 =||«W|| 

i=i 

les coordonnées du vecteur x étant x v .., x p et celles de m m v ... m p . 

(5) Mahalanobis, P. C., 1930, p. 548. 

(6) Rao, C. R., 1952, p. 351. 

(7) Voir par exemple Cramer, H., 1946, p. 103. Dans cette notation, x est 
un vecteur-colonne, x' un vecteur-ligne. 
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Une transformation linéaire, de matrice C, conduit à une .nouvelle distri¬ 
bution, 

—J4(y—m*)'B-i(y —m*) p 

const. X e n dy i 

i=l 

avec x—Cy, m=Cm* et B— 1 = C'A- 1 C. 


La matrice B est celle des covariances des nouvelles variables. 

On a A 2 = (m—d)'A — 1 (m—d) = (m*—d*)'C'A— 1 C(m*—d*) (d=Cd*) 

Le dernier membre de ces égalités peut s’écrire aussi 
( m*—d* ) 'B — 1 ( m*—d* ) 

qui est le A 2 calculé pour les nouvelles variables y v ..,y p . 


Il résulte de cette propriété d’invariance de A 2 que l’on peut 
supposer, sans nuire à la généralité, a i} = 0(&j) et a H = 1. Il 
suffit de choisir une transformation linéaire qui réduise la forme 
quadratique définie positive (x—m)'A~ a (x— m) à une somme 
de carrés. Alors A 2 s'écrira 

A 2 = (m\—d\Y+..{m\—d p *)\ 


3° A~ ne diminue pas quand on augmente le nombre de varia¬ 
bles. En effet, quel que soit le nombre de variables, la forme 
quadratique (x m)'Â — 1 (x— m) est toujours définie positive; 
il est possible de trouver une suite de transformations linéaires 
qui réduisent A 2 à une somme de carrés, de telle sorte que l’addi¬ 
tion de chaque nouvelle variable entraîne l’addition d’un nouveau 
terme (m*»— d*i) 2 qui n’est jamais négatif. 

4° Ajoutons une dernière condition qui nous semble indispen¬ 
sable à toute mesure de divergence et à laquelle satisfait A 2 ; la 
valeur L 2 de A 2 calculée à partir d’un échantillon a une 
distribution d échantillonnage exacte, ce qui permet d’estimer 
convenablement A 2 à partir de L 2 et d'évaluer les erreurs 
d’échantillonnage, même lorsque l’effectif est faible. 
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Remarque 1. La définition de « distance » que nous venons de donner peut 
s'étendre à tous les couples de points de l’espace. On appellera carré de la 
« distance » entre deux points F et G, le scalaire 

(f-g)'A-Mf-g) 

fi et g i étant respectivement les coordonnées de F et G. 

L'invariance de ce scalaire pour les transformations linéaires (qui se démon¬ 
tre comme celle de A 2 ) entraîne la propriété suivante : 

« Distance » de FG + « distance » de GH ^ « distance » de FH, F. G 
et H étant trois points quelconques de l'espace. 

Pour le vérifier, il suffit de supposer a 4 ^ = 0(i=A/) et a i4 =l, car dans 
ce cas les « distances » définies se confondent avec les distances ordinaires de 
l’espace euclidien. 

Cette propriété sera utile quand nous voudrons comparer deux fossiles, non 
seulement au point moyen de la population de référence, mais encore entre eux. 

Remarque 2. On peut encore donner une autre interprétation géométrique 
de A 2 . On considère un système de référence constitué par p vecteurs dont 
les produits scalaires sont a ij . Dans cet espace, |A| représente la distance 
géométrique ordinaire du point D au centre M de coordonnées m 1 ,..,m p et 
l’équation 


p p 

2 2 aii(x i —m j (xj — mj) =c 2 (constante) 

i=l )= 1 

représente une hypersphère de centre M et de rayon c. L’invariance de A 2 
se démontre aisément à l’aide de cette représentation. 

Remarque 3. Par sa nature même, la mesure de divergence conduit à un 
« taux d’éloignement » qui peut fournir un test d'appartenance du point D 
à la population. Le taux d'éloignement est une fonction de A 2 , mais comme 
il ne varie que de 0 à 1, les points éloignés du centre de la population auront 
tous un taux d’éloignement pratiquement égal à 1. D’autre part, si l’addition 
d’une nouvelle variable ne diminue jamais A 2 , elle peut avoir pour effet de 
diminuer le taux d’éloignement. Ces raisons nous font considérer A 2 comme 
une bonne mesure de divergence, tandis que le taux d’éloignement a plutôt 
une valeur pratique, notamment lorsqu’il s’agit d’examiner des points assez 
proches du centre de la population. 


3. — Utilisation de A 2 dans lfs problèmes de discrimi¬ 
nation. 

Dans les problèmes de discrimination, on doit choisir entre 
deux populations pour y classer un sujet. R. A. Fisher a donné 
une solution dans le cas où les deux populations sont multivariées 
normales, avec des moyennes différentes, mais avec une 
même matrice de variances et covariances. 
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La frontière entre les deux populations est alors donnée par une 
fonction discriminatoire linéaire des variables, telle que le 
nombre de sujets mal classés est minimum (8). Dans une note 
précédente (9), nous avons montré que dans le cas de deux 
variables, la fonction discriminatoire représente la droite joignant 
les points d’intersection de deux ellipses équiprobables qui 
contiennent respectivement un même pourcentage de sujets de 
chacune des deux populations. 

Grâce au A 2 , il est possible d’éliminer l’hypo¬ 
thèse de l’égalité des variances et covariances 
dans les deux populations. 

En effet, soient deux populations multivariées normales P i 
et P 2 dont les distributions sont respectivement 


CtX 


—K ( x—m x ) 'A ~\( x—m t ) 
e Tldxi 


et 


C 2 Xe 


y 2 ( x—m = ) ' A - L ( x m 2 ) 

Tldxi 


et soient d-L,..,d p les coordonnées d’un sujet D à classer dans l’une 
des deux populations. 

On calcule le carré de la « distance » A 2 de D par rapport 
à P t et P 2 

A 2 1 =(m 1 —d)'A _ 1 1 (m 1 —d) et A 2 2 = (m 2 —d)'A“ I 2 (m 2 —d). 

On classera le sujet dans P L si A 2 j<A 2 2 et dans P 2 si A 2 2 <A 2 i. 

Le lieu des points pour lesquels A 2 i=A 2 2 a pour équation 
(*) (x—mJ'A-Mx— mi ) = (x—m 2 ) , A- 1 2 (x-—m 2 ). 

(8) Fisher, R. A., 1936 et 1937. 

(9) Defrise-Gussenhoven, E., 1952, p. 27. 


E. DEFRISE-GUSSENHOVEN. — MESURE DE DIVERGENCE A 2 ENTRE 


C’est une hyperquadrique lorsque A 1 ^=A 2 ; on retrouve la fonc¬ 
tion discriminatoire de R. A. Fisher lorsque Ai = A 2 , car alors 
les termes du 2 me degré de (*) se détruisent. 

De même, si l’on a le choix pour classer le sujet D entre k 
populations multivariées normales P it ...,P 1: , à moyennes et cova¬ 
riances distinctes, on calculera les carrés des « distances » 
A 2 t,...,A 2 )c de D à chacune des populations. On classera le sujet D 
dans la population P< correspondant à la valeur minimum A 2 4 . 

Il resterait évidemment à déterminer le nombre de sujets mal 
classés dans le cas de deux populations multivariées à covariances 
inégales. Ce problème requiert l’intégration de la densité de la 
population Pi d’un même côté de l’hyperquadrique d’équation (* ). 


4. — Recherche de la distribution échantillonnée de L 2 , 

VALEUR DE A 2 CALCULÉE A PARTIR ü’UN ÉCHANTILLON. 

Calculée à partir d’un échantillon d’effectif n, la mesure de 
divergence A 2 vaut 


L 2 — S 2 a lj (xi — di) (xj — dj) 

i=l 3=1 

fonction des moyennes et des covariances de l'échantillon. Nous 
allons établir la répartition d’échantillonnage de L 2 quand l’échan¬ 
tillon tiré de la population varie, le point D étant fixe. 


Faisons appel à un théorème démontré par C. R. Rao (10). 

a) Théorème de Rao : Considérons un échantillon d’effectif n 
tiré d’une population normale à p variables dont la répartition 
est 

—y 2 % 2 /?*%»— W )(ÿ,— w ) 

const. X e i ~~ 1 1 Udyi 


(10) Rao, C. R„ 1952, p. 72. 
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Posons 

|S«I 

Sp=-3—. 

\Sij + nyiyj\ 

n 

où Si] = S ( y ik —ÿi ) ( y jk — ~ÿj ) 

Jc =1 

et où les ~ÿi sont les moyennes de y t pour l'échantillon; la répar¬ 
tition d’échantillonnage de S p est alors 


(**) 


in p 

const. X S j u-p- 2)/2 ( i_S p )(p-a)/a 1 F 1 

\ 2 2 


(1—Sj,)n J «. 2 ) 
2 


! S 

o p 


où 


s S i8«ViW 


et où j.Fi est la fonction hypergéométrique définie par 


a a(œ+l) a{a J r 1 ) (œ + 2) 

iF 1 (a,p,z) =1+--z + —-—-Z 2 +---— Z 3 - h... 

l!p 2!p(p+l) 3!p(p+1 ) (p+2) 


La démonstration de cette propriété est obtenue par C. R. Rao 
grâce à une suite de théorèmes très bien agencés qui servent aussi 
dans d’autres questions, notamment celle de la distribution du T 2 
de Hotelling, du D 2 de Mahalanobis, etc... (11). 

b) Application du théorème de C. R. Rao à la répartition 
de L 2 . 


Supposons que le vecteur y de la population envisagée par 
Rao soit égal à 


y=x—d 


(11) Fisher, R. À. 1915 et 1928. 
Hotelling, H. 1931. 

Bose, R. C. et Roy, S. N. 1938. 
Roy, S. N. 1939. 
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où les composantes de x et d sont respectivement les variables Xi 
et les constantes d t définies au paragraphe 1 des définitions. 

Posons en outre 

||£*i|| = IKi|| ^ Mi —mi—di (i,j—l,,.,p) 

les mi étant les moyennes et les an étant les covariances des 
variables x%. 

Alors S ij = naij, où les an désignent comme au paragraphe 1 
les covariances des Xi dans l'échantillon. Dès lors, S p peut s’écrire 

\naij\ 1 

S,,=-=- 

\naij + ti(xi — di) (x, — d } )\ 1+L 2 


car on montre aisément que 


o —(xi—c/i) 

(x% — d t ) 

I 

{xp dp) api 


- ( x p dp ) 

3pi 


: a* 


c) Répartition de L 2 . 

Pour avoir la répartition de L 2 , il suffit de faire dans (**) 

1 

S p = - et dS P = —(1+L 2 ) _2 c?L 2 

1+L 2 

La constante se calcule aisément par intégration. Quand S,, varie 
de 0 à 1, L 2 varie de oo à 0. La répartition d'échantillonnage 
de L 2 prend la forme 


r(n/2)e-"AV2 (L2 )(p-2>/2 , n p nA 2 L 2 \ 

-"iF ! - dU 

T(p/2)T( (n ~ p) /2) ( 1 + L 2 ) n/2 \ 2 2 2( 1 + L 2 ) / 
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L 2 variant de 0 à oo et A 2 — (m — d)'A 1 (m — d) étant le « carré 
de la distance » du point D au centre de la population. 

Remarques. 

1. Cette distribution ne dépend que de l’effectif ri de l’échan¬ 
tillon, du nombre de variables p et de A 2 . 

2. Quand A 2 —0, c’est-à-dire quand le point D se trouve au 
centre de la population, la distribution se réduit à 


r(n/2) (L 2 ) (p_2)/2 

_ d u 

r(p/2)r(< K -p>/2) (1 + L 2 )” /2 


et permet de tester l’hypothèse que le centre de la population 
dont on a tiré l’échantillon se confond avec le point D, Il 
suffit de poser 


T 2 

L 2 =- 

n —1 


pour retrouver la distribution du T 2 de Hotelling. 

3. Quand p = l, on n’a qu’une seule variable x, ayant une 
distribution N ( m,<y ); on a alors 

(m— d) 2 (x — d) 2 

A 2 —- - — et L 2 =-; 


x et s sont respectivement la moyenne et la déviation standard 
d'un échantillon et d la coordonnée du point D dont on cherche 
la mesure de divergence à la moyenne m. Dans ce cas, la répar¬ 
tition de L 2 devient celle du t 2 non central de Student, à condi¬ 
tion de faire 
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5. — Moments de la répartition de L 2 et estimation 
DE A 2 . 


Les premier et deuxième moments se calculent par intégration. 


p + nA 2 

m(L 2 ) —— -; 

n-, —p—2 


p 2 -f-2p + 2(p + 2)nA 2 + n 2 A 4 (p + 2nA 2 ) (p+2) + n 2 A 4 

m 2 { L 2 ) =-=--- 

( n—p—2 ) ( n—p—4 ) ( n—p—2 ) ( n—p— 4 ) 


La variance de L 2 est 


2n 2 A 4 +2(n—2) (p+2nA 2 ) 

- 2 (L 2 ) =- 

(n—p—2) 2 (n—p—4) 


Un estimateur sans biais et consistant de A 2 est 


n—p—2 p 

A 2 e -- L 2 - 

n n 


L 2 est un estimateur biaisé mais consistant de A 2 . 


Il faut choisir comme estimateur de A 2 : 


(n—p—2)L 2 p 

A 2 e ='- — 

n n 

L’étude et la tabulation de la distribution de L 2 , qui dépend de 
trois paramètres n, p et A 2 , restent à faire et permettraient de 
déterminer dans chaque cas les intervalles de confiance de l’esti¬ 
mateur A 2 e (12). 


( 12) Nous avons déjà utilisé la mesure de divergence A 2 dans une question 
de paléontologie; voir Defrise-Gussenhoven, E., 1955. 
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Résumé. 

Le problème d’analyse multivariée traité dans cette note s’est posé lors de 
la confrontation d un fémur fossile avec une collection de fémurs actuels. 

L auteur définit une mesure de divergence entre un point fixe D (dont les 
coordonnées d v ..,d p sont les mesures du fémur fossile) et un point M (dont 
les coordonnées m v ..,m p sont les moyennes de la population de fémurs actuels). 

Cette mesure de divergence est 


A 2 — S X — d.-,) (m.) — dj) (i,j=l ,..,p) 

i =1 

où les a*i sont les mineurs normés des éléments a.j de la matrice des cova¬ 
riances de la population que l’on suppose distribuée normalement. 

La distance A 2 tient compte des différences m,— d % , mais aussi des cova¬ 
riances de la population. Dans le cas où “^-=0 (i^j) et a ji = l, A 2 représente 
le carré d'une distance géométrique ordinaire. 

A 2 ressemble à la distance généralisée que P. C. Maiialanobis utilise pour 
mesurer 1 écart entre les moyennes de deux populations multivariées normales 
à matrices de covariances identiques. 

Lorsque le point D varie, A 2 est distribué comme x 2 avec p degrés de 
liberté. A chaque point D correspond une probabilité particulière qui indique 
le pourcentage de sujets de la population plus rapprochés de M que D. Pour 
des raisons d'ordre pratique, l’auteur appelle ce pourcentage « taux d’éloigne¬ 
ment du point D ». 

On peut utiliser A 2 pour comparer entre elles les distances de différents 
points D à une même population. On trouve un autre domaine d’application 
de A 2 dans le problème qui consiste à choisir entre plusieurs populations pour 
y ranger un spécimen, dont les mesures sont les coordonnées du point D : 
D appartiendra à la population à laquelle correspond le plus petit A 2 . Ce 
procédé est intéressant parce qu’il ne nécessite pas l’identité des matrices de 
covariances des différentes populations. 

L’auteur utilise certains théorèmes donnés par C. R. Rao pour établir la 
distribution échantillonnée de L 2 (valeur de A 2 calculée pour un échantillon). 

Comme dans tous les cas apparentés, la distribution de L 2 ne dépend que 
de la valeur de A 2 pour la population, de l’effectif de l’échantillon et du 
nombre p de caractère envisagés. 

Les premier et second moments de L 2 et un estimateur non biaisé et con¬ 
sistant de A 2 sont donnés. Pour calculer rapidement les intervalles de confiance 
de cet estimateur de A 2 , il faudrait disposer d’une tabulation de la répartition 
pour différentes valeurs des paramètres. 

A la connaissance de l’auteur, la distribution de L 2 est inédite. Elle est 
étroitement apparentée au type C donné par R. A. Fisher pour la distribution 
du coefficient de corrélation multiple (loc. cit.). 

La distribution de L 2 peut aussi être utilisée pour tester si D appartient à la 
population. La quantité ( n —1)L 2 —T 2 pourrait être appelée T 2 non central 
de Hotelling; sa distribution serait celle de (n—1)L 2 . 
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E. DEFRI.SE-GUSSENHOVEN. — MESURE DE DIVERGENCE A 2 ENTRE 


SUMMARY. 

A problem of multivariate analysis has arisen in connection with a question 
of human paleontology in which a fossil bone was compared to a population 
of recent bones. 

The author évaluâtes the divergence between a fixed point D (whose coor- 
dinates d v ..,d p are the measures of a fossil) and a point M (whose coordinates 
are the means of the population of recent bones). 

The defined measure of divergence is 


A 2 = 2 2 

i=l j =1 


'(m i — di)(m } — dj) 


where adl are the éléments of the matrix reciprocal to the common dispersion 
matrix of the population, which is supposed to be normally distributed. 

The measure A 2 takes into account the différences m i -—d i , but also the 
covariances of the population. It represents the square of an usual geometrical 
distance when « { ^ = 0 (ij^j) and an = 1- 

A 2 is akin to the generalized distance of Mahalanobis given as a measure 
of the distance between the means of two multivariate normal populations 
which hâve identical dispersion matrices. 

A 2 being distributed as x 2 with p degrees of freedom for varying D, a parti- 
cular probability corresponds to each point D, indicating the percentage of 
the population nearer to the mean M than the point D. For practical reasons, 
the author has called this percentage « taux d’éloignement du point D ». 

A 2 may be used to compare the distances from several points D to the same 
population or when one must décidé to which of several normally distributed 
populations the measures of D belong. In the latter case, D will be enlisted 
in that population to which the smallest value of A 2 corresponds. The advan- 
tage of this discriminatory process is that the considered populations need not 
hâve the same dispersion matrices. 

To establish the sampling distribution of the sample value L 2 of A 2 , the 
author has used some theorems given by C. R. Rao. 

As in ail the analogous cases, the distribution of L 2 dépends only on the 
population value of A 2 , the number in the sample and the number p of mea- 
sured characters. 

The first and second moments of L 2 and an unbiased and consistent estimate 
of A 2 are given. The tabulation of. the distribution ought to be made for 
practical use. 

In other papers, the author has given numerical examples of the use of A 2 . 

To our knowledge, the sampling distribution of L 2 is new, but it is closely 
connected with the type C given by R. A. Fihser for the distribution of the 
multiple corrélation coefficient ('/oc. cit.). 

The distribution of L 2 may also be used to test if D belongs to the sampled 
population. The quantity ( n —1)L 2 —T 2 might be called the non central T 2 
of Hotelling, and its distribution would be that of (n—1)L 2 . 


UN SUJET DÉTERMINÉ ET UNE POPULATION MULTIVARIÉE NORMALE 15 


Index bibliographique. 

Bose, R. C. et Roy, S. N., 1938, The distribution of the Studentized D t -sta- 
tistic. (Sankhyâ, Calcutta, vol. 4, part 1, pp. 19-37.) 

Cramer, H., 1946, Mathematical methods ol statistics. (Princeton University 
Press, 1 vol., 574 p.) 

Defrise-Gussenhoven, E., 1952, Discrimination de populations voisines. Etude 
biométrique. (Bull. Inst, royal des Sc. natur. de Belgique, Bruxelles, 
tome XXVIII, n° 46, 34 p.) 

Defrise-Gussenhoven, E„ 1955, Ellipses équiprobables et taux d’éloignement. 
(Bull. Inst, royal des Sc. natur. de Belgique, Bruxelles, tome 31, n° 26, 
31 p.) 

Defrise-Gussenhoven, E., 1955, Mesure de divergence et taux d’éloignement 
entre les moyennes d’une communauté de Carbonicola et les types du 
groupe Communis. (Volume Jubilaire du Chanoine Demanet, Assoc. 
pour l'Etude de la Paléont. et de la Stratigr. Houillères, n° 21, Hors 
série, VIII, 418 p., 28 pl„ Bruxelles.) 

Fisher, R. A., 1915, Frequency distribution of the values o[ the corrélation 
coefficient in samples from an indefinitely large population. (Bio- 
metrika, vol. X, pp. 507-522.) 

Fisher. R. A., 1928, The general Sampling Distribution of the Multiple Corré¬ 
lation coefficient. (Proc. Roy. Soc. A, vol. 121, pp. 654-673.) 

Fisher, R. A., 1936, The use of Multiple Measurements in Taxonomie Pro- 
blems. (Annals of Eugénies, vol. 7 (2), pp. 179-188.) 

Fisher, R. A., 1936, Coefficient of Racial Likeness and the future of Cranio- 
metry. (Joum. of the royal Anthr. Inst., Londres, vol. 66, pp. 57-64.) 

Fisher, R. A., 1937, The statistical utilization of multiple measurements. 
(Annals of Eugénies, vol. 8, pp. 376-386.) 

Hotelling, H., 1931, The généralisation of « Student’s » ratio. (Ann. Math. 
Stats., vol. 2, pp. 360-378.) 

Mahalanobis, P. C., 1930, On tests and measures of group divergence. (Journ. 
and Proc. Asiat. Soc. of Bengal, vol. 26, New Sériés, pp. 541-588, 
Calcutta. ) 

Mahalanobis, P. C., 1936, On the generalized distance in Statistics. (Proc. 
Nat, Inst, of Sc. of India, vol. 2 (1), pp. 49-55.) 

Rao, C. R., 1952, Advanced Statistical Methods in Biométrie Research. (John 
Wiley, New York, 1 vol., 389 p.) 

Roy, S. N., 1939, A note on the distribution of the Studentized D 2 Statistic. 
(Sankhyâ, Calcutta, vol. 4, part 3, pp. 373-380.) 

Seltzer, C. C., 1937, A critique of the coefficient of racial likeness. (Amer. 
Journ. of Phys. Anthr., vol. 23, pp. 101-109.) 

TwiESSELMANN, F., 1954, Propos sur ïanthropologie. (Volume jubilaire Victor 
Van Straelen, 1925-1954, tome II, pp. 1065-1098, Bruxelles.) 


16 


E. DEFRISE-GUSSENHOVEN 


TABLE DES MATIÈRES. 

Introduction . 1 

1. — Définition de À 2 , mesure de divergence entre un point fixe D et 

le point moyen (centre) d’une population . 3 

2. .— Justification de la définition de A 2 . 4 

3. — Utilisation de A 2 dans les problèmes de discrimination . 6 

4. — Recherche de la distribution échantillonnée de L 2 , valeur de A 2 

calculée à partir d'un échantillon . 8 

5. — Moments de la répartition de L 2 et estimation de A 2 . 12 

Résumé . 13 

Summary . 14 

Index bibliographique . 15 

Institut royal des Sciences naturelles de Belgique. 


Ad. Goemaere, Imprimeur du Roi, 21, rue de la Limite, Bruxelles 











